The/at-tl Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd Friday/nr an/at
investigation/nn of/in Atlanta’s/np$ recent/jj primary/jj election/nn produced/vbn “/“ no/at
evidence/nn ”/” that/cs any/dti irregularities/nns took/vbd place/nn ./.
在进行词性标注时,前提条件之一便是选择什么样的标记集?Brown 语料库标记集有 87
个,而英语中其他标记集多数是从 Brown 语料库中的标记集发展而来的,如最常用的 Penn
Treebank 标记集,包含 45 个标记,是小标记集。汉语标记集中常用的有北大《人民日报》
语料库词性标记集、计算所汉语词性标记集等。
确定使用的标记集,之后便是如何进行词性标注了!如果每个单词仅仅对应一个词性标
记,那么词性标注就非常容易了。但是语言本身的复杂性导致了并非每一个单词只有一个词
性标记,而存在一部分单词有多个词性标记可以选择,如 book 这个单词,既可以是动词(book
that flight),也可以是名词(hand me that book),因此,词性标注的关键问题就是消解这样的
歧义,也就是对于句子中的每一个单词在一定的上下文中选择恰如其分的标记。
实际中,英语中的大多数单词都是没有歧义的,也就是这些单词只有一个单独的标记。
但是,英语中的最常用单词很多都是有歧义的,因此,任何一个词性标注算法的关键归根结
底还是如何解决词性标注中的歧义消解问题。
如何建立一个与词性标注问题相关联的 HMM 模型?首先必须确定 HMM 模型中的隐藏
状态和观察符号,也可以说成观察状态,由于我们是根据输入句子输出词性序列,因此可以
将词性标记序列作为隐藏状态,而把句子中的单词作为观察符号,那么对于 Brown 语料库
来说,就有 87 个隐藏状态(标记集)和将近 4 万多个观察符号(词型)。确定了隐藏状态和
观察符号,我们就可以根据训练语料库的性质来学习 HMM 的各项参数了。
HMM 还可以应用在人的行为分析、网络安全和信息抽取中,还有人讲 HMM 用于金融、
管理和心理情绪等建模中。随着时代的发展,HMM 必将有更广泛的应用。
结语
隐马尔可夫模型(Hidden Markov Model, HMM)是可用于标注问题的统计学习的模型,
描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。本文以一个例子为主线,
用理论结合实际的方法讲解了 HMM 的基本原理和三个基本问题,以及三个问题的求解方
法。最后,详细讲述了一个 HMM 在词性标注中的实际应用。